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摘 要 : 和 蛋白质 、 脂 肪 含量 和 体 细 胞 数量 作为 牛乳 收购 中 的 重要 参考 指标 ,决定 了 牛乳 的 品质 和 价格 。 为 
批量 准确 地 对 牛乳 品质 进行 分 级 ， 提 高 乳 企 的 生产 效率 ， 本 研究 以 3216 份 荷 斯 坦 牛牛 乳 样本 为 研究 对 象 ， 
应 用 中 红外 光谱 技术 实现 对 收购 过 程 中 4 种 不 同 品质 牛乳 的 检测 分 级 。 利 用 一 阶 导 数 和 一 阶 差分 对 光谱 进行 
预 处 理 ， 并 结合 竞争 性 自 适 应 重 加 权 算 法 (Competitive Adaptive Reweighted Sampling, CARS) 和 随机 蛙 跳 算 
法 (Shuffled Frog Leaping Algorithm, SFLA) 筛选 出 能 代表 不 同 牛 乳 的 有 效 特 征 变量 ， 建 立 支 持 向 量 机 
(Support Vector Machine, SVM) 模型 。 其 中 ， 利 用 网 格 搜索 法 (Grid Search, GS), HARI (Genetic Algo- 
rithm, GA) 和 粒子 群 算法 (Particle Swarm Optimization, PSO) 对 SVM 模型 的 关键 参数 一 一 惩罚 参数 c 和 核 
函数 参数 g 进 行 优化 。 结 果 表明 ，SFLA 算 法 总 体 上 优 于 CARS 算 法 ，PSO 优 化 SVM 模 型 的 效果 最 佳 。 一 阶 差 
分 预 处 理 后 ， 利 用 SFLA 算法 筛选 特征 变量 建立 的 PSO-SVM 模型 ， 训 练 集 准确 率 、 测 试 集 准 确 率 和 曲线 下 
面积 (Area Under Curve, AUC) 分 别 为 97.8% 、95.6% 和 0.96489。 该 模型 具有 较 高 的 准确 率 ， 在 牛乳 产业 中 


具有 实际 应 用 价值 。 
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1 引言 


蛋白 质 和 脂肪 是 牛乳 的 重要 营养 组 成 成 分 ， 


是 决定 牛乳 品质 和 价格 的 关键 因素 。 乳 脂 和 乳 蛋 


白 含量 一 直 作 为 牛乳 的 收购 参考 指标 "。 此 外 ， 
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体 细 胞 数 (Somatic Cell Count, SCC) 会 直接 影 
响 牛 乳 中 的 和 蛋白质 和 脂肪 含量 以 及 奶牛 的 产 奶 
量 。 现 如 今 ，SCC 已 被 乳品 行业 作为 牛乳 收购 标 
准 之 一 ”。 乳 脂 、 乳 蛋白 和 体 细 胞 数 在 欧美 被 第 
三 方 实验 室 广泛 用 于 按 质 论 价 ”。1 mL 牛乳 中 
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SCC 不 高 于 20 万 个 时 ， 奶 牛 身体 为 健康 状态 “; 
当 超 过 此 界限 ，SCC 数 量 递增 的 同时 ， 和 牛乳 的 品 
质 以 及 奶牛 的 产 奶 量 均 会 下 降 ; 1 mL 牛乳 中 
SCC 高 于 50 万 个 时 ,奶牛 有 很 大 机 率 感染 亚 临 
床 乳 房 炎 (乳腺 炎 )， 和 牛乳 品质 进一步 降低 *; 
若 1mL 牛 乳 中 SCC 高 于 100 万 个 ， 奶 牛 很 有 可 
能 患 有 临床 乳房 炎 一。 

近年 来 ， 中 红外 光谱 (Mid-infrared Spec- 
troscopy, MIRS) 被 广泛 用 于 牛乳 中 各 成 分 的 无 
损 检 测 “， 因 此 MIRS 技术 为 牛乳 收购 中 鉴别 不 
同等 级 牛乳 提供 了 一 种 有 效 手 段 。 然 而 ，MIRS 
的 波长 范围 广 ， 在 包含 丰富 有 效 信息 的 同时 ， 也 
包含 很 多 宛 余 信 息 和 背景 噪声 ， 对 模型 造成 干 
扰 。 因 此 ， 分 析 并 揭示 中 红外 光谱 的 响应 规律 ， 
筛选 出 最 能 代表 不 同等 级 牛乳 的 差异 波段 ， 对 简 
化 MIRS 模型 、 提 高 模型 精度 和 效率 具有 重要 
意义 。 

筛选 变量 的 方法 可 分 为 三 大 类 : 变量 优化 选 
择 法 、 变 量 区 间 选 择 法 以 及 变量 信息 选择 法 。 变 
量 优化 选择 法 通过 创造 一 个 合适 的 目标 函数 以 寻 
找 最 优 变量 组 合 ， 主 要 包括 遗传 算法 (Genetic 
Algorithm, GA)" 、 粒 子 群 算法 (Particle 
Swarm Optimization，PSO) 0 、 模 拟 退 火 算法 
(Simulated Annealing Algorithm, SAA) > 等 。 
变量 区 间 选 择 法 通过 筛选 多 个 光谱 区 间作 为 有 效 
变量 区 间 组 合 ， 区 间 数 目的 选择 直接 影响 模型 的 
结果 ， 包 括 间隔 偏 最 小 二 乘法 (Interval Partial 
Least Squares, iPLS) 、 前 向 间隔 偏 最 小 二 乘法 
(Forward Interval PLS，FiPLS)"”、 后 向 间隔 偏 
最 小 二 乘法 (Backward Interval PLS, BiPLS) "'” 
和 移动 窗口 最 小 二 乘法 (Moving Window Partial 
Least Squares，MWPLS) 2 。 变 量 信息 选择 法 
将 信息 变量 作为 描述 变量 在 模型 中 所 起 作用 大 小 
的 指示 变量 ， 其 中 竞争 性 自 适 应 重 加 权 算 法 
(Competitive Adaptive Reweighted Sampling, 
CARS) |”, fA AE SLA BRIA (Elimination of 
Uninformative Variables, UVE) 2 和 连续 投影 法 


(Successive Projections Algorithm, SPA) |) 是 较 


为 流行 的 几 种 算法 。 另 外 ， 一 些 新 型 的 组 合 优化 
算法 如 随机 蛙 跳 算法 (Shuffled Frog Leaping Al- 
gorithm, SFLA) 22 被 广泛 应 用 于 农业 工程 。 
此 外 ， 主 成 分 分 析 (Principal Component Analy- 
sis, PCA) 等 算法 也 用 于 压缩 数据 ， 但 一 般 不 用 
来 做 直接 的 特征 提取 而 是 用 来 做 特征 和 矩阵 的 降 
维 汪 。 与 CARS、SFLA 算 法 等 直接 筛选 代表 性 
变量 相 比 ， 主 成 分 各 个 特征 维度 的 含义 具有 一 定 
的 模糊 性 ， 不 如 原始 样本 特征 的 解释 性 强 。 

本 研究 以 河北 地 区 9 个 牧场 的 牛乳 为 研究 对 
象 ， 分 析 牛 乳 收 购 中 不 同等 级 牛乳 的 光谱 特征 ， 
利用 CARS 算 法 和 SFLA 算 法 筛选 特征 变量 ， 
SVM, J MIRS 技术 在 牛乳 收购 过 程 中 提 
供 支持 。 


2 材料 与 方法 


2.1 试验 材料 


研究 采用 的 3216 份 牛乳 样本 均 来 源 于 河北 
省 9 个 牧场 的 荷 斯 坦 牛 。 奶 牛 饲养 于 平均 环境 温 
度 为 10~29 °C. ANEREN 45%~78% 的 可 连续 
Buk ANE 2019411 A ~20204F 10 A (不 包 
括 2 月 ) 期 间 ， 从 晨 乳 中 收集 样本 。 每 个 月 采集 
一 次 样本 ， 当 天 上 午 5:30 开 始 采集 ， 上 午 采 完 。 
使 用 全 自动 转盘 挤 奶 设备 逐 头 精确 采集 每 头 奶牛 
40 mL 的 牛乳 ， 然 后 将 牛乳 放 入 从 奶牛 群体 改良 
(Dairy Herd Improvement，DHI) 检测 实验 室 获 
得 的 全 新 特定 采样 瓶 中 ， 并 依次 编号 。 共 采集 
3216 份 牛乳 样本 。 为 防止 牛乳 变质 ， 在 每 个 采样 
瓶 中 加 入 了 专用 防腐 剂 布 罗 波 尔 3.2~-3.4 uL JE , 
立即 放 入 冰箱 保存 (4 *C) ， 并 于 第 二 天 进行 光 
2.2 试验 方法 
2.2.1 光谱 采集 、. 乳 成 分 及 SCC 检测 

设备 : 乳 成 分 分 析 仪 MilkoScanTM FT+ ( 傅 
里 叶 变换 中 红外 光谱 仪 FTIR) ， 体 细胞 检测 仪 
FossomaticTM7。 


所 有 牛乳 均 在 河北 省 DHI 检 测 中 心 完 成 数据 
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采集 。 具 体 步骤 为 : 将 电热 恒温 水 浴 锅 预 热 至 
(4240.2) CC， 将 牛乳 分 批 放 入 ， 加 热 15~20 min 
后 摇 园 均匀 ， 使 用 MilkoScanTM FT+ 采 集 光 谱 以 
及 蛋白质 和 脂肪 含量 测定 。 

此 外 ， 使 用 FossomaticTM7 测 定 牛 乳 中 的 体 
细胞 数 。 
2.2.2 ”收购 分 级 标准 

THLJNX 001-2018 《黑龙 江 省 食品 安全 团 
体 标准 》 为 黑龙 江 省 乳 制 品 企业 牛乳 收购 和 质量 
监督 的 参考 依据 ， 以 此 标准 为 参考 标准 ， 结 合 
SCC 进 行 分 级 。 分 级 标准 如 表 1 所 示 。 

表 1 牛乳 分 级 标准 


Table 1 Standard of milk classification 


SFLA 算 法 将 全 局 搜索 性 能 良好 的 粒子 群 算 
法 和 局 部 搜索 能 力 较 强 的 元 算法 进行 结合 ， 从 而 
可 以 获得 强大 的 寻 优 能 
2.3.2 ”基于 参数 寻 优 的 支持 向 量 机 模型 

支持 向 量 机 (Support Vector Machine， 
SVM) ”是 基于 机 器 学 习 方法 的 强大 多 元 技术 ， 
由 Vapnik 和 Burges 首次 引入 255。 简单 来 说 ， 
SVM 利用 核 技巧 将 输入 向 量 映射 到 更 高 维 的 特 
征 空间 中 ， 然 后 构造 最 大 边 距 分 离 超 平面 进行 特 
级 、 一 级 、 二 级 和 低 质量 牛乳 的 分 类 。 在 本 研究 
中 ， 使 用 径 向 基 国 数 (Radial Basis Function, 
RBF) 构建 模型 ， 利 用 网 格 搜索 法 (Grid 
Search, GS), GA 和 PSO 对 RBF 核 函数 的 两 个 


级 别 脂肪 /% 和 蛋白质 /% SCC(10! 个 /mL) 
特级 >3.6 >3.2 <20 
一 级 >3.4 H.<3.6 >3.0 H<3.2 <50 
二 级 >3.2 H<3.4 >2.8 H<3.0 <50 
低 质量 <3.2 <2.8 <100 
2.2.3 样本 划分 


以 表 1 为 依据 对 牛乳 分 级 。 所 有 牛乳 中 ， 特 
级 牛乳 数量 为 940 份 ， 一 级 牛乳 数量 为 826 份 ， 
二 级 牛乳 数量 为 537 份 ， 低 质量 牛乳 数量 为 913 
份 。 按 照 约 7:3 的 原则 利用 随机 划分 RS (Ran- 
dom Selection) 算法 将 样本 集 划分 为 训练 集 和 测 
试 集 。 样 本 集 的 划分 情况 如 表 2 所 示 。 

表 2 牛乳 样本 集 的 划分 


Table 2 Division of milk sample sets 


样本 集 训练 集 / 份 测试 集 / 份 
寺 级 658 282 
一 级 578 248 
二 级 376 161 

低 质 量 640 273 


2.3 数据 处 理 


2.3.1 ”特征 变量 筛选 

CARS 算 法 以 降低 无 信息 变量 为 出 发 点 ， 模 
型 运行 过 程 中 ， 以 PLS 回归 系数 为 衡量 标准 ， 根 
据 交 又 验证 均 方 根 误 差 (Root Mean Square Error 
of Cross-Validation, RMSECV) 对 应 的 位 置 选择 
最 优 的 子 集 代 表 特 级 、 一 级 、 二 级 和 低 质量 牛乳 
中 红外 光谱 差异 的 特征 变量 组 合 。 


重要 参数 惩罚 参数 c 和 核 函 数 参数 g 进 行 优化 ， 
分 别 建立 GS-SVM、GA-SVM 和 了 PSO-SVM 模 型 。 
2.3.3 ”模型 评估 
利用 准确 率 作 为 模型 的 主要 评价 指标 ， 训 练 
集 准 确 率 与 测试 集 准确 率 越 高 且 两 者 越 接 近 ， 表 
明 模 型 的 精度 高 ， 可 靠 性 好 。 
预测 正确 的 样本 


准确 率 = REA X 100% (1) 


3 ”结果 与 讨论 


3.1 不 同 牛乳 的 光谱 分 析 


特级 、 一 级 、 二 级 和 低 质 量 牛乳 在 MIRS 范 
围 内 的 原始 吸收 曲线 如 图 1。 可 以 看 出 ， 牛 乳 的 
光谱 曲线 严重 重 又 ， 由 于 水 的 干扰 ，1597~ 
1712 cm Fil 3024~3 680 cm-: 左 右 的 区 域 信 噪 比 
低 呈 ， 无 法 用 于 建 模 。 不 同 牛乳 的 平均 光谱 曲 
线 走向 趋势 相似 (图 2)， 表 明 它 们 的 内 部 化 学 成 
分 基本 一 致 ， 但 同时 它们 的 光谱 又 存在 差异 ， 表 
明 4 类 牛乳 的 化 学 成 分 含量 存在 差异 。 其 中 ， 一 
级 牛乳 和 二 级 牛乳 的 平均 光谱 十 分 接近 ， 通 过 肉 
眼 难 以 区 分 ， 特 级 和 低 质量 牛乳 则 与 它们 存在 一 
定 差异 。 根 据 福 斯 公司 提供 的 乳 成 分 的 吸收 情况 
可 知 ，1754 cm 左右 的 波峰 主要 与 脂肪 中 C=O 
键 的 伸缩 振动 有 关 ，2857 cm 左右 的 波峰 主要 与 
脂肪 酸 链 中 的 饱和 C-H 键 的 伸缩 振动 有 关 ， 
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1470 cm 左右 的 波峰 主要 与 脂肪 酸 链 中 饱和 C-H 
键 的 弯曲 振动 有 关 ，1538 cm! 主要 与 N-H 键 的 弯 
BRINN: 


wm ww om 
T T 


透射 率 /% 
= 


3 

i 

0 

图 1 特级 牛乳 、 一 级 牛乳 、 二 级 牛乳 和 低 质量 牛乳 的 原始 
光谱 


Fig. 1 Original spectra of premium milk, first-grade milk, 


second-grade milk and low quality raw milk 


3.2 光谱 预 处 理 和 特征 变量 选择 


选择 925~1597 cm 和 1712~3024 cm” 的 敏 
感 波段 组 合作 为 全 光谱 ,分别 利用 一 阶 差 分 和 一 
阶 导数 预 处 理 。 

预 处 理 后 的 全 光谱 信息 得 到 增强 ， 但 光谱 维 
数 过 多 ， 会 导致 SVM 模型 收敛 速度 慢 ， 全 光谱 
中 还 存在 与 牛乳 分 级 不 相关 的 变量 ， 直 接 用 于 建 
模 会 对 模型 造成 干扰 。 使 


一 一 一 级 
—— 28 
低 质 量 


x 
# 
党 0.1 
0.0 
-0.1 
02 La 1 1 1 1 1 f 
1000 1500 2000 2500 3000 3500 4000 
W/m! 
图 2 特级 牛乳 、 一 级 牛乳 二 级 牛乳 和 低 质 量 牛 乳 的 平均 


Fig. 2 Mean spectra of premium milk, first-grade milk, sec- 


ond-grade milk and low quality raw milk 


为 100 次 。 以 一 阶 导 数 预 处 理 后 的 光谱 数据 为 例 
阐述 CARS 算 法 进行 变量 选择 的 过 程 。 图 3 (a) 
为 被 选取 的 特征 变量 数 随 着 重 采样 运行 次 数 的 
变化 曲线 。 由 图 3 (b) 可 知 ， 在 100 次 重 采样 
中 ， 当 重 采 样 次 数 为 62 时 ， 对 应 最 小 交叉 验证 
均 方 根 误差 值 为 0.5441， 此 时 各 变量 的 回归 系数 
位 于 图 3 (c) 中 竖 线 位 置 ， 取 得 最 优 变量 组 合 。 
如 表 3 所 示 ， 利 用 CARS 算 法 对 全 光谱 、 一 
阶 导 数 光 谱 和 一 阶 差 分 光谱 筛选 的 特征 变量 数 分 
别 为 30、17 和 19， 依 次 建立 GS-SVM、GA- 


用 CARS 算 法 、SFLA 算 法 
分 别 进一步 提取 有 用 变量 ， 


剔除 无 信息 变量 ， 找 出 能 i 5 10 15 20 
够 代表 特级 、 一 级 、 二 级 
和 低 质量 牛乳 的 变量 组 合 ， 


30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 
重 采 样 次 数 /次 


(a) 变 量 数 


简化 模型 ， 提 高 预测 精度 
3.2.1 采样 CARS Sik ff 


选 特征 变量 建立 


交叉 验证 均 方 根 误差 
Fa 
CN 
T 
i 


30 35 40 55 60 65 70 75 80 85 90 95 100 
BRM 


(b) 交 又 验 证 均 方 根 误差 


SVM 模 型 
本 研究 利用 5 折 交 又 验 
证 ， 将 重 采 样 率 设置 为 
0.8。 将 CARS 的 重 采样 次 A 


数 分 别 设 为 90、100 和 200 
次 ， 对 比 了 不 同 重 采样 次 


| | | 
30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 
重 采样 次 数 /次 


(Cc) 回归 路 径 


图 3 竞争 性 自 适 应 重 加 权 算 法 筛选 特征 波长 


数 对 SVM 模 型 BW 果 的 影 Fig. 3 Screening characteristic wavelengths by competitive adaptive reweighted sampling 


啊 ， 最 终 将 重 采 样 次 数 定 


algorithm 
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SVM 和 了 PSO-SVM 分 级 模型 。 与 全 光谱 数据 相 
比 ， 一 阶 导数 处 理 后 建立 的 分 级 模型 预测 性 能 均 
得 到 提升 ， 而 一 阶 差 分 处 理 后 的 分 级 模型 预测 性 
能 均 有 所 下 降 ， 三 种 模型 均 在 一 阶 导 数 处 理 后 获 
得 最 高 的 分 级 准确 率 ，GS-SVM 模 型 的 效果 优 于 
GA-SVM 模 型 和 PSO-SVM 模 型 ， 其 训练 集 准 确 
率 为 95.4%， 测 试 集 准确 率 为 94.5%。 
表 3 CARS 算法 建立 的 SVM 模型 准确 率 结果 
Table 3 Accuracy results of SVM models established using 
CARS algorithm 


变量 被 选择 的 概率 


训练 集 准 ”测试 集 准 


= JE J yk 去 全 aps SY 
模型 预 处 理 方法 ”特征 变量 数 RRN WRA 
全 光谱 30 95.2 93.8 
GS-SVM ”一 阶 导 数 17 95.4 94.5 
一 阶 差分 19 95.4 93.6 
全 光谱 30 95.6 93.8 
GA-SVM ”一 阶 导数 17 95.2 94.2 
一 阶 差分 19 95.0 93.6 
全 光谱 30 95.6 93.9 
PSO-SVM ”一 阶 导数 17 95.1 94.2 
一 阶 差分 19 95.0 93.6 


3.2.2 采样 SFLA 算 法 筛选 特征 变量 建立 SVM 
模型 

本 研究 中 设置 SFLA 运行 次 数 N W 10,000, 
最 大 潜在 变量 数 A 为 6， 抽 样 变量 的 初始 数量 Q 
为 2。 利 用 概率 的 大 小 作为 变量 筛选 的 评价 指标 ， 
在 图 4 中 ， 横 坐标 代表 每 一 维 光 谱 变 量 的 编号 ， 
纵 坐 标 代表 被 选择 的 概率 。 波 峰 越 高 ， 表 明 变 量 
被 选中 的 可 能 性 越 大 。 以 一 阶 差分 处 理 后 的 515 
维 光 谱 为 例 ， 将 515 个 变量 被 选 的 概率 排序 ， 以 
0.1 为 国 值 ， 最 终 得 到 位 于 岁 中 虚线 上 方 的 146 个 
最 优 变量 组 合 。 

如 表 4 所 示 ， 利 用 SFLA 算 法 对 全 光谱 、 一 
阶 导数 光谱 和 一 阶 差 分 光谱 筛选 的 特征 变量 数 分 
别 为 23、77 和 146， 依 次 建立 GS-SVM、GA- 
SVM 和 PSO-SVM 分 级 模型 。 一 阶 导数 和 一 阶 差 
分 处 理 后 的 分 级 模型 性 能 均 得 到 显著 提高 ， 三 种 
模型 在 一 阶 差 分 处 理 后 获得 最 高 的 分 级 准确 率 。 
其 中 ，PSO-SVM 模 型 的 效果 优 于 GS-SVM 模 型 
和 GA-SVM 模 型， 训练 集 准确 率 和 测试 集 准确 
率 分 别 为 97.8% 和 95.6%。 


0.6 


1 1 
200 300 350 400 450 500 


250 
变量 索引 
图 4 随机 蛙 跳 算法 筛选 特征 波长 
Fig. 4 Screening characteristic wavelengths by shuffled frog 
leaping algorithm 
表 4 SFLA 算 法 建立 的 SVM 模型 准确 率 结果 
Table 4 Accuracy results of SVM models established using 
SFLA algorithm 


训练 集 准 ”测试 集 准 


模型 预 处 理 方法 ”特征 变量 数 Rn ME 
全 光谱 23 92.9 90.8 
GS-SVM ”一 阶 导数 77 96.8 94.3 
一 阶 差分 146 96.5 95.5 
全 光谱 23 92.2 90.2 
GA-SVM ”一 阶 导数 77 95.6 94.2 
一 阶 差分 146 97.7 95.3 
全 光谱 23 92.1 90.0 
PSO-SVM ”一 阶 导数 77 95.9 94.3 
一 阶 差分 146 97.8 95.6 


对 比 发 现 ,未 处 理 的 全 光谱 结合 CARS 算法 
建立 的 模型 测试 集 准确 率 为 93.8%~93.9% , Til 
处 理 后 的 全 光谱 结合 CARS 算 法 建立 的 模型 测试 
集 准确 率 为 93.6%~94.5% ( 表 3)。 未 处 理 的 全 
光谱 结合 SFLA 算法 建立 的 模型 测试 集 准 确 率 为 
90.0% 一 90.8%， 预 处 理 后 的 全 光谱 结合 SFLA 算 
法 建立 的 模型 测试 集 准 确 率 为 94.2%~95.6% 
( 表 4)。 无 论 是 采用 一 阶 导数 还 是 一 阶 差分 预 处 
理 ， 与 未 处 理 的 全 光谱 相 比 ，SFLA 算法 对 模型 
性 能 的 提升 明显 优 于 CARS 算 法 。 

SFLA 算 法 建立 的 3 种 最 佳 模型 均 优 于 CARS 
算法 建立 的 模型 。 其 中 ， 通 过 一 阶 导 数 -CARS 算 
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法 筛选 的 特征 变量 数 仅 占 全 光谱 的 3.29%， 一 阶 
差分 -SFLA 算法 筛选 的 特征 变量 数 占 全 光谱 变量 
数 的 28.29%， 因 此 ，SFLA 算 法 筛选 的 有 效 变 量 
更 多 ， 更 具 代 表 性 ， 模 型 的 预测 能 力 更 强 。 


3.3 三 种 SVM 模型 对 比 


确定 一 阶 差分 -SFLA 算 法 建立 的 模型 效果 最 
优 后 ， 对 比 不 同 的 寻 优 算法 对 SVM 模型 的 影响 。 
同时 ， 通 过 受 试 者 工作 特征 (Receiver Operating 
Characteristic, ROC) 曲线 和 ROC 曲线 下 面积 
(Area Under Curve，AUC)'* 进一步 评价 三 种 
SVM 模型 。ROC 曲线 可 以 反应 分 类 器 在 某 个 立 
值 时 对 样本 的 识别 能 力 ， 曲 线 越 趋 近 坐 标 轴 左上 
方位 置 ， 曲 线 下 方 与 X 轴 围 成 的 面积 AUC 越 大 ， 
模型 的 性 能 越 好 。 由 图 5 可 知 ，GS-SVM、GA- 
SVM, PSO-SVM 模型 ROC 曲线 的 AUC 分 别 为 
0.95786, 0.95935 和 0.96489, PSO-SVM 优 于 
GS-SVM 和 GA-SVM 模 型 。 


1.00 


表 5 三 种 参数 寻 优 算法 下 的 SVM 的 模型 
Table 5 SVM models based on three parameter 


optimization algorithms 


寻 优 寻 优 参数 。 ”训练 集 准 测试 集 准 A 训练 时 
算法 ¢ g 确 率 /% MZA 间 /s 
GS 1024 84.4485 96.5 95.5 0.95786 28,663 


GA 93.3426 990.1028 97.7 95:3 
PSO 100 1000 97.8 95.6 


3.4 多 分 类 预测 结果 混淆 矩阵 可 视 化 


将 一 阶 差分 -SFLA-PSO-SVM 模型 的 预测 结 
果 以 混淆 和 矩阵 的 形式 表示 (K6). Hp, TARE 
阵 主 对 角 线 上 的 绿色 方 框 表 明了 特级 、 一 级 、 二 
级 和 低 质 量 牛乳 预测 正确 的 样本 数 和 在 总 样本 中 
所 占 的 比例 ， 红 褐色 方 框 则 表明 4 类 牛乳 预测 错 
误 的 样本 数 和 在 总 样本 中 所 占 的 比例 ， 下 、 右 的 
深 灰 色 和 矩形 框 分 别 表示 对 应 样本 属性 预测 召回 率 
和 精准 率 。 召 回 率 即 为 正确 预测 为 特级 牛乳 占 全 
部 实际 为 特级 牛乳 的 比例 、 正 确 预测 为 一 级 牛乳 
占 全 部 实际 为 一 级 牛乳 的 比例 、 正 确 预 测 为 二 级 
牛乳 占 全 部 实际 为 二 级 牛乳 的 比例 以 及 正确 预测 
为 低 质 量 牛 乳 占 全 部 实际 为 低 质 量 牛 乳 的 比例 。 
精准 率 即 为 正确 预测 为 特级 牛乳 占 全 部 预测 为 特 
级 牛乳 的 比例 、 正 确 预测 为 一 级 牛乳 占 全 部 预测 


0.95935 1318 
0.96489 3506 


1 
0.60 0.70 0.80 0.90 


1 1 1 1 
0.10 0.20 0.30 0.40 


AS 三 种 SVM 模型 的 ROC 曲线 
Fig. 5 ROC curves of three SVM models 

对 比 发 现 ， 通 过 GS 得 到 的 c 值 较 大 ，g 值 较 
小 ， 而 通过 GA 和 了 PSO 算 法 得 到 的 c 值 较 小 ，g 值 
较 大 。 其 中 ，c 与 SVM 算法 对 奇异 点 的 重视 程度 
有 关 ，c 值 不 宜 过 大 或 过 小 ， 和 否则 会 对 模型 精度 
造成 影响 ; g 与 SVM 算 法 的 收敛 速度 有 关 ，g 越 
大 ， 支 持 向 量 越 少 ， 模 型 收敛 越 快 ' 光 。PSO 导 
优 算法 建立 的 SVM 模型 训练 集 准 确 率 、 测 试 集 
准确 率 和 AUC 值 均 优 于 GS AIGA RIE (485). 
对 比 训练 时 间 ，GS 远大 于 GA 和 PSO 算法 ， 因 
此 ， 综 合 考虑 准确 率 、AUC 值 和 训练 时 间 ， 最 
终 选 择 一 阶 差 分 -SFLA-PSO-SVM 模 型 为 最 佳 牛 
乳 收 购 分 级 模型 。 


为 一 级 牛乳 的 比例 、 正 确 预 测 为 二 级 牛乳 占 全 部 
预测 为 二 级 牛乳 的 比例 以 及 正确 预测 为 低 质量 牛 
乳 占 全 部 预测 为 低 质 量 牛 乳 的 比例 。 

由 图 6 可 知 ， 测 试 集 的 964 个 样本 中 ， 特 级 、 
一 级 、 二 级 和 低 质 量 牛 乳 的 召回 率 分 别 为 
97.9%, 94.8%. 92.5% 和 96.0%， 精 准 率 分 别 为 
95.5%, 95.5%, 92.0% 和 98.1%， 误 判 数量 分 别 
为 6、13、12 和 11 个 。 蓝 色 方 框 为 模型 预测 准确 
率 ， 为 95.6%。 


4 结论 


本 研究 以 河北 省 9 个 牧场 的 3216 份 荷 斯 坦 牛 
牛乳 样本 为 研究 对 象 ， 分 别 测定 牛乳 中 的 脂肪 、 
蛋白 质 含 量 和 体 细 胞 数量 并 采集 中 红外 光谱 ， 构 
建 了 牛乳 收购 分 级 模型 。 主 要 结论 如 下 : 
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一 级 


= 


预测 属性 


低 质量 


特级 -级 二 级 低 质量 
真实 属性 


图 6 一 阶 差分 -SFLA-PSO-SVM 模型 的 混淆 矩阵 


Fig. 6 Confusion matrix of first order differential-SFLA- 


PSO-SVM 


(1) 对 特级 、 一 级 、 二 级 和 低 质量 牛乳 的 
原始 光谱 和 平均 光谱 进行 分 析 并 去 除 噪声 波段 
和 无 贡献 波段 后 ， 选 择 925~1597 cm' 和 
1712~3024 cm” 的 敏感 波段 作为 全 光谱 用 于 后 
续 建 模 。 

(2) 对 全 光谱 进行 预 处 理 后 ， 为 了 剔除 光谱 
宛 余 信 息 ， 克 服 维 数 灾难 ， 结 合 CARS 算法 和 
SFLA 算 法 进行 特征 变量 筛选 。 结 果 表 明 ， 当 利 
用 CARS 算 法 筛选 特征 变量 时 ,一 阶 导数 为 最 住 
预 处 理 算 法 ， 当 利用 SFLA 算 法 筛选 特征 变量 
时 ， 一 阶 差分 为 最 佳 预 处 理 算 法 ，SFLA 算 法 总 
体 上 要 优 于 CARS 算 法 。 最 终 选 择 一 阶 差分 -SF- 
LA-PSO-SVM 模型 为 牛乳 收购 分 级 的 最 佳 模型 ， 
训练 集 准 确 率 、 测 试 集 准 确 率 和 AUC 分 别 为 
97.8%, 95.6% 和 0.96489 . 

(3) 对 比 了 GS、GA 和 了 PSO 三 种 参数 寻 优 算 
法 的 训练 时 间 ， 结 果 表 明 GS 的 训练 时 间 远 长 于 
POS 和 GA 算 法 。 
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Abstract: Protein, fat and somatic cells are three important reference indicators in milk purchase, which determine the quality 
and price of milk. The traditional chemical analysis methods of these indexes are time-consuming and pollute the environment, 
while the mid-infrared spectrum has the advantages of fast, non-destructive and simple operation. In order to realize the rapid 
classification of milk quality and improve the production efficiency of dairy enterprises, 3216 Holstein milk samples were cho- 
sen as the research objects and mid-infrared spectroscopy technology was applied to realize the detection and classification of 4 
different quality milks during the purchase process. The spectrum was preprocessed by using the first derivative and the first dif- 
ference, and combined with the algorithm competitive adaptive reweighted sampling (CARS) and the shuffled frog leaping algo- 
rithm (SFLA), the effective characteristic variables that could represent different milks were selected, and the SVM model was 
established. Among them, the penalty parameter c and the kernel function parameter g which were the key parameters of the 
SVM model were optimized by using the grid search method (GS), genetic algorithm (GA) and particle swarm algorithm 
(PSO). The training time of GS, GA and PSO algorithms were compared, the results showed that the training time of GS was 
much longer than that of GA and PSO algorithms.The SFLA algorithm was generally better than the CARS algorithm, and the 
PSO optimized the SVM model the best. After the first-order difference preprocessing, the PSO-SVM established by using the 
SFLA algorithm to filter the characteristic variables, the accuracy of the training set, the accuracy of the test set and the AUC 
were 97.8%, 95.6% and 0.96489, respectively. This model has a high accuracy rate and has practical application value in the 
milk industry. 


Key words: mid-infrared spectrum; milk; purchase classification; shuffled frog leaping algorithm; support vector machine 
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